Claude3深夜“奇袭”GPT，OpenAI半天就更新了这？

Original AI沃茨卡尔的AI沃茨 2024-04-14

关注卡尔的AI沃茨并设为“星标“第一时间接收最新AI资讯✨

作者：卡尔
动手学AI 教程知识库 👉 learnprompt.pro 你想学的都在这里🎉

Claude3 家族上线，剑指GPT4

Claude 终于有动静了，这次又是深夜发布 😭，文案没有写 GPT4，但是图片 GPT4 和 GPT3.5 都是重点关注对象。怀疑是不是都在学 OpenAI 突然发布 Sora 的“营销思路”。

建议大家给 X 上所有 AI 产品的官方号都拉邮件通知里去，不然随时深夜给你个失眠大礼包 🥱

🎹 一句话总结：Claude公司新推出的Claude3 模型系列。这一系列包括 Claude 3 Haiku、 Claude 3 Sonnet和 Claude 3 Opus 三款模型。以高性能、多语言能力和突破性速度、视觉识别、减少错误率等特点，三款不同性能与成本的模型，满足不同领域的智能化需求。

现已上线：Opus 和 Sonnet 模型，在 claude.ai 及 Claude API 上对全球 159 个国家开放，免费用户也能使用 Claude 3 Sonnet 模型
即将推出：Haiku 模型，敬请期待。

可能因为文本能力是 Claude 的强项，这次命名很有创意。Haiku 是俳句「日本的三行短诗」，Sonnet 是十四行诗，Opus 指的是就是史诗级乐章。

价格如何？

作为 GPT4 订阅用户，我第一时间去看的反而不是性能而是这波更新 Claude 3 的定价如何？

网页端：，体验 Opus 需要订阅 20 刀一个月的 pro 套餐，跟 GPT4 价格一致！
API 方面：Opus 定价高于 GPT-4 Turbo, 明显低于 GPT-4 32K，Sonnet 比所有 GPT-4 版本(包括 GPT-4 Turbo)便宜, Haiku(尚未发布到 Claude API)甚至比 GPT-3.5 Turbo 还便宜。

核心优势

大家看到最多的一定是这张图了

简单解读一下这些指标里面最值得关注的是什么？

👍👍👍 推理能力：Claude3 Opus 在多语言数学推理测试集（MGSM）上，以 0-shot（未提供任何示例）的方式达到了 90.7% 的准确率，而 GPT-4 在 8-shot（提供了 8 个示例）的情况下，只达到了 74.5%（-16.2）的准确率。这一点也体现在 MATH（数学问题解决）和 GPQA（研究生水准的推理数据集）
👍👍 与 GPT4 同级别的语言处理能力：在 MMLU、GSM8K 和 HumanEval 测试集上，Claude3 与 GPT-4 的表现相似

Claude 3 实测！

说的那么厉害，那当然要直接上手测测！

我用 Claude3 Opus 给大家总结了官方的技术文档中强调的“改进点”

智能新标准（强大的推理能力）：Claude 3系列在多个评估基准上超越同行，特别是Opus模型，以其接近人类的理解和流利度引领通用智能前沿。
近瞬时结果：Claude 3模型支持即时客户服务和数据提取，其中 Haiku 模型以其极速响应著称。
强大的视觉能力：Claude 3模型具备处理各种视觉格式的能力，适合解码企业知识库中的视觉信息。
更少的拒绝：与早期版本相比，Claude 3模型在处理边缘案例时拒绝的可能性显著降低，展现出更细腻的理解能力。
提高准确性：Claude 3模型在保持高准确率方面取得了显著进步，特别是在处理复杂问题时。
长篇幅上下文与近乎完美的回忆：所有三个模型都能处理超过100万令牌的输入，Opus模型在信息回忆上几乎达到完美。

这六点里面最吸引我，能让我订阅 Claude 的特点是

推理能力，多模态，全系模型均能处理超过 100 万个 tokens

瞬时结果虽然也很吸引我，但真正能达到3倍速+就是目前还是只有Haiku，推理能力超越GPT4的Opus响应的速度和上一版大致相同
更少的拒绝，也意味着模型不会动不动拒绝你的问题，但这一情况在我目前使用GPT API和GPT网页端都较少遇到，反而是Gemini遇到比较多

推理能力

放几个我觉得 X 上很有代表性的例子（让 Claude & GPT 一起玩脑筋急转弯 From 宝玉大佬 @dotey）

“在一间屋里，有三个杀手，然后来了一个人，把其中一个杀手杀了，问，现在屋里有几个杀手？”

GPT4 vs Claude 3 第一局：打平

“我有 6 个鸡蛋，碎了 2 个，煎了 2 个，吃了 2 个，还剩下几个？”

GPT4 vs Claude 3 第二局：GPT4 胜

第三局决胜局：

“一个微波炉,一个电磁炉,额定功率都是 800w,要把 500g ,25 度的水烧开,哪个快,快多少?”

所以这局谁胜了？大家快看看 👀

多模态实测

和前代模型相比，Claude3 最突出的新增能力在于其视觉识别能力。这意味着它能处理包括照片、图表、图形以及技术图纸等多种视觉资料态能力。

日常使用多模态较多的场景就是视频&图文

Emmanuel Ameisen 和 Erik Schluntz 挑战用 Claude 3 Opus 将 Andrej Karpathy 的 2 小时 13 分钟的视频转换成一篇博客文章，仅通过一次提示，Claude 3 Opus 就成功完成了任务。
歸藏大佬找了一个论文的一部分让 Claude 3 Opus 解读，分析的也很清楚，但给出的信息没有 GPT-4 丰富。

大海捞针

Claude 3 全系模型均能处理超过 100 万个 tokens 的输入。衡量上下文窗口能力的试金石，依然是我们熟悉的「大海捞针」测试。

Claude3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现，而且在某些情况下，它能识别出那些作为「针」的句子是由人为刻意插入的。这种程度的意识真的非常 Cooooool

如果大家想了解更加详细的 Claude 3 性能，不妨和我共读完整的技术报告

同时，NVIDIA 科学家 Jim Fan 发表了对 Claude-3 的看法，他最喜欢 Claude-3 发布的两件事刚好是对 Claude 其他方面“改进点”优势的补充

领域专家基准。我对饱和的 MMLU 和 HumanEval 不那么感兴趣。Claude特别挑选了金融、医学和哲学作为专家领域并报告性能。我建议所有 LLM 模型卡都遵循这一点，这样不同的下游应用程序就会知道该期待什么。
拒绝率分析。LLMs'对无辜问题过于谨慎的回答正在成为一种流行病。Anthropic 通常处于极端安全的一端，但他们认识到了这个问题，并强调了他们在这方面的努力。好极了！
我喜欢Claude在 GPT 和Gemini占主导地位的舞台上掀起热潮。不过请记住，GPT-4V，这个每个人都拼命想打败的高水位标杆，已经在 2022 年完成了训练。这是暴风雨前的宁静。

官方彩蛋

看到出来，官方非常想要吸引新的用户，Anthropic 还推出了一个包含多样化创意 prompt 的 prompt 库。这非常适合那些想要深入了解和充分利用 Claude 3 新功能的朋友们

https://docs.anthropic.com/claude/prompt-library

有一说一，这个界面是不是有点眼熟

写在最后

实际体验下来，Claude 3 真的可以说是超越了 GPT4，但大家别忘记 GPT4V 都已经是 2022 年训练完成 ✅ 的了，OpenAI 会不会有什么秘密大招马上出！

截止到 0305 的中午两点 OpenAI 全量发布了两个小功能：记忆能力和朗读能力来反应 Claude3 的大招。

但这完全不够看啊！我最近是不是要深夜看看有没有 GPT5 突然出现 🏃

24年，AI模型竞争势头依然强劲，这下我已经迫不及待要订阅了

目前Claude 网页端已经被“卡爆”，无法体验Sonnet。想体验新版Claude3，需要订阅Pro

那普通用户是否应该订阅Claude 3呢？如果你不是推理能力 & 长文本需求用户，我的建议是先等一等，等OpenAI大招，等更全的Claude3评测。

如果希望一起交流讨论，或参与相关的讨论群，或者建立合作的话，加我个好友位吧！

aiwarts101

继续滑动看下一个

卡尔的AI沃茨

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

Claude3深夜“奇袭”GPT，OpenAI半天就更新了这？

价格如何？

核心优势

Claude 3 实测！

推理能力

多模态实测

大海捞针

官方彩蛋

写在最后

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

生成图片，分享到微信朋友圈

Claude3深夜“奇袭”GPT，OpenAI半天就更新了这？

价格如何？

核心优势

Claude 3 实测！

推理能力

多模态实测

大海捞针

官方彩蛋

写在最后

您可能也对以下帖子感兴趣